max rank | avg. rank | sentence |
---|---|---|
213 | 94.3000 | El seu pare va morir quan ell tenia dos anys. |
231 | 73.4000 | Barcelona i de la Universitat de Barcelona. |
232 | 87.0000 | Fou una ciutat important però molt poc es conegut de la seva història. |
309 | 103.8889 | La ciutats més importants de nord a sud, foren: |
309 | 113.4286 | Els tipus més importants són els següents: |
310 | 105.2500 | És el cas, per exemple, de la Viquipèdia. |
322 | 123.8571 | Els membres principals de la família foren: |
325 | 145.1429 | Sant Joan pot tenir els significats següents: |
325 | 156.1667 | Europa pot tenir els significats següents: |
332 | 188.1429 | Carles IV pot tenir els significats següents: |
376 | 164.5714 | Pere II pot tenir els significats següents: |
410 | 166.7500 | Les principals ciutats (totes a la costa) foren: |
417 | 140.4000 | Les ciutats principals de la divisió (amb la seva població) son: |
426 | 163.3750 | Maria de Rússia pot tenir els significats següents: |
442 | 188.3333 | València pot tenir els significats següents: |
444 | 156.8750 | L'obra està encara en procés de construcció. |
449 | 207.4444 | La construcció va començar el 20 de desembre de 2003. |
451 | 129.3750 | El francès és la llengua oficial del país. |
461 | 119.4444 | Aquesta versió és la que va arribar a Europa. |
480 | 100.2500 | El seu pare va ser el seu primer professor. |
483 | 149.1000 | Va morir a Barcelona el 15 de febrer del 2005. |
506 | 129.0000 | En els anys següents el matrimoni va tenir fills. |
519 | 132.3333 | Es pot veure la central al nord de la ciutat. |
521 | 208.5000 | L'any següent tenien un fill, Joan Lluís. |
525 | 178.0909 | En català, cada un d'aquests mesos té un nom d'origen llatí: |
549 | 137.8889 | Aquest fet va tenir una gran influència sobre ell. |
564 | 197.1111 | Va ser capital nacional de la cultura el 2003. |
566 | 158.4444 | Després apareix molt poc a l'història de Roma. |
597 | 200.7143 | Sant Alexandre pot tenir els significats següents: |
597 | 214.1667 | Alexandre pot tenir els significats següents: |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II